Hoe werkt? 


Een duik in de wereld van OCR 


Tekst ontcijferd 


De werking van een scanner hebben we reeds behandeld. Maar hoe slaagt een computer erin 


OFF LINE 


om ervoor te zorgen dat we die tekst vervolgens kunnen bewerken? Op de volgende pagina’s 
leggen we je in klare taal uit hoe je computer tekst van een pagina inleest en omzet in een 
vorm die jou toelaat om die tekst te wijzigen. 


en scanner werkt een beetje zoals een ko- 
pieerapparaat (zie ook Clickx 28). Als we 
een document inscannen, wordt daar ei- 
genlijk een foto van genomen. Die foto wordt 


omgezet in een heleboel bits en bytes die door 
de computer als .jpg-bestandje op je harde schijf 
worden bewaard. Maar er is één puntje waar we 
toch even de aandacht op willen vestigen. Een 


Glyph = de scan of 


‚ Willen 
nor 


ingescand document is niet meer dan een digi- 
tale afbeelding, een foto. Als het document tekst 
bevat, kan je die tekst niet wijzigen. Staat er een 
tabel op, dan kan je daar geen kolommen aan 


de herkende glyph wordt D je 
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“®&pe tekst wordt geschikt 


en afgeleverd als een 
bewerkbaar document. 
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toevoegen of er een rij uit verwijderen. Noch- 
tans zou dat best handig zijn. Eigenlijk willen 
we dat de computer in staat is om te lezen. De 
voordelen liggen voor de hand. Wanneer de 
nood aan menselijke interactie vermindert, ver- 
hoogt dat de productiviteit, de efficiëntie én gaan 
de kosten omlaag. Stel dat we oude documen- 
ten op efficiënte wijze willen digitaliseren. In 
een film zie je dikwijls één of andere steracteur 
of -actrice urenlang achter een beeldbuis zitten, 
terwijl hij of zij zich doorheen stapels oude kran- 
ten werkt. Als al die oude kranten gedigitaliseerd 


‘HOE WERKT’ LEERT JE IN KLARE TAAL DE BELANGRIJKSTE 


zijn, is het voldoende om enkele trefwoorden in 
te tikken. De computer zoekt in het archief en 
je krijgt onmiddellijk de gewenste edities op je 
scherm te zien. De omzetting van beeld naar 
tekst wordt gedaan met behulp van OCR. Dat 
is de afkorting voor Optical Character Recogni- 
tion. OCR is een vorm van artificiële intelligentie 
en zorgt ervoor dat tekst effectief als tekst wordt 
herkend. Het resultaat is dat je een gescande pa- 
gina in een Word-document kan openen én de 
tekst kan wijzigen. Wil je weten hoe OCR in z'n 
werk gaat, lees dan zeker verder! 


Efficiënt zoeken 


Het concept van OCR is zeker niet nieuw. Al in 
het begin van de 18° eeuw werd het principe ge- 
bruikt om te zorgen dat slechtzienden in staat 
waren om documenten te ‘lezen’. Desondanks 
duurde het tot de intrede van de computer voor- 
aleer de techniek echt doorbrak. In 1951 kwam 
een zekere David Sheppard met Gismo op de 
proppen. Gismo was een soort scanner die 23 
van de 26 letters van het alfabet kon lezen. Ver- 
der begreep het toestel morse-code én was het 
in staat om een tekst letter voor letter voor te le- 
zen. De machine kreeg heel wat publiciteit en 
zorgde voor een versnelling op het gebied van 
OCR-ontwikkelingen. Reader's Digest [ www. 
rd.com | geniet de eer om het eerste bedrijf te 
zijn dat een OCR-lezer installeerde. Iets later 
nam US Postal Service [ www.usps.com | even- 
eens een OCR-machine in gebruik. Die machi- 
ne lokaliseerde het adres van de bestemmeling 
op de envelop en las de postcode in. Op basis 
van die postcode wordt het postpakket dan ge- 
sorteerd. Per uur kon die machine toch zo’n 
45-000 pakketjes verwerken. Daar zijn al heel 
wat bedienden voor nodig. In de beginjaren was 
OCR een exotisch gadget voor grote bedrijven 
met veel geld. Vandaag zijn er al een heleboel 
betaalbare pakketten voor de thuisgebruiker op 
de markt. De bekendste producten zijn Fine- 
Reader [ vwwvw.abbyy.com |, OmniPage [ wvvw. 
scansoft.com/omnipage | en TextBridge [ www. 
scansoft.com/textbridge |. Zo betaal je voor 
FineReader 6 € 129. 


Letters lezen 


Het basisprincipe van OCR is het genereren 
van karakters op basis van de ingescande af- 
beelding. De afbeelding van een gedrukte let- 


BEGRIPPEN UIT DE COMPUTERWERELD KENNEN 


ter noemen we een glyph. Die afbeelding kan 
niet zomaar omgezet worden in tekst, zoals we 
met ASCII-codes zouden kunnen doen 
[ www.asciitable.com |. Eerst moet alle objec- 
ten geïdentificeerd worden. Een object kan een 
karakter zijn, maar ook een tabel of een teke- 
ning. OCR-programma’s steunen bij het her- 
kennen van objecten op drie pijlers: integri- 
teit, doelbewustheid en aanpassingsvermogen. 
Een afbeelding die onderzocht wordt, moet al- 
tijd in zijn geheel beschouwd worden. Dat wil 
zeggen, een afbeelding wordt slechts benoemd 
als een bepaald object wanneer de afbeelding 
aan alle voorwaarden voor dat object voldoet. 
Zo heeft elk object een aantal specifieke ei- 
genschappen. Die eigenschappen zijn opge- 
slagen in een databank. Die databank bevat bij- 
voorbeeld de eigenschappen van de letter ‘a’, 
maar ook de eigenschappen van het Russische 
en het Chinese alfabet. Elke taal heeft een ei- 
gen set van karakters, binnen elke taal zijn er 
nog verdere onderverdelingen. De hoofd- en 
de kleine letters bevinden zich in een andere 
set, net als de tien cijfers en de speciale tekens 
zoals een vraagteken of een dollarteken. Op 
basis van de eigenschappen van het object 
wordt in een bepaalde set gezocht. Dat versnelt 
aanzienlijk het zoekproces. Letters zijn struc- 
tureel beschreven. Zo kan de letter ‘p’ be- 
schreven staan als een verticaal streepje waar 
rechtsbovenaan een kleine cirkel aan verbon- 
den is. Er zijn vier types van structurele ele- 
menten: een boog, een cirkel, een punt en een 
segment (zoals een lijn- of cirkelsegment). Die 
methode is erg belangrijk voor handschrift- 
herkenning. Als we letters op basis van struc- 
turele elementen identificeren is het niet van 
belang hoe groot een bepaalde letter wel is. De 
kenmerken blijven hetzelfde, hoe groot of klein 
de letter ook moge zijn. Er zijn natuurlijk een 
heleboel truukjes ingebouwd die het vergelij- 


ASCII: American Standard Code for Information 
Interchange. Met deze code worden alle karakters 
(cijfers, letters, symbolen) opgeroepen op een 

computer. De gewone tekenset bevat 128 ver- 

schillende karakters. Er bestaat ook een uitgebrei- 
de tekenset van 256 tekens waarmee accenten en 
speciale symbolen worden weergegeven. 
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Hoe werkt? 


ken versnellen. Zo wordt je altijd gevraagd in 
welke taal het document dat je wil inlezen op- 
gesteld is. Op basis van jouw taalkeuze kan het 
programma, zonder dat het ook maar hoeft te 
vergelijken, al een heleboel tekens elimineren. 
Het spaart heel wat tijd als het programma de 
Kantonese en Mandarijnse karakters niet hoeft 
te doorlopen. 


Een map, een boom of 
een rivier? 


Stel dat het programma een afbeelding van 
een plan van een buslijn inleest. In de ogen 
van het OCR-programma kan die map net 
zo goed een rivierkaart of een stamboom 
zijn. Het programma gaat dan op zoek naar 
extra informatie om uit te vissen waar het 
om gaat. Stel dat het programma er in slaagt 
de namen van bushaltes te vinden én dat het 
geen datums terugvindt (zoals op een stam- 
boom). Het programma kan dan conclude- 
ren dat het een afbeelding van een map is. 
Dit is de toepassing van het integriteits- 
principe. Wanneer het programma denkt 
dat een afbeelding voldoet aan de eigen- 
schappen van de letter ‘a’ zal het nog eens 
expliciet controleren of de afbeelding wel 
voldoet aan alle eigenschappen van de let- 
ter ‘a’. Anders gezegd: doelbewust werken. 
Een goed OCR-programma moet ook in staat 
zijn om zichzelf slimmer te maken. Het 
moet aanpassingsvermogen hebben. Bij- 
voorbeeld, wanneer het meent dat het de let- 
ter ‘a’ herkend heeft, zal het die letter ver- 
gelijken met de afbeelding van diezelfde let- 
ter in reeds ingelezen delen van het docu- 
ment. Het programma baseert zich dus op 
voorgaande ervaringen, leert als het 
ware bij. Die drie principes samen 
korten we af tot IPA, ofwel Integri- 
ty, Purposefulness en Adaptability. 
Bij dergelijke vergelijkingen wor- 
den zeer ingewikkelde wiskundige 
algoritmes gebruikt. Meer info kan 
je vinden op [ www.win.tue.nl/ipa/ 
researchareas. html ] of [ www.dai. 
ed.ac.uk/HIPR2/hipr_ top.htm |. Bij 
het herkennen van objecten wor- 
den zelfs artificiële neurale net- 
werken [ www.neurascript.com | 
gebruikt. Een andere manier om af- 
beeldingen te identificeren is door 
ze pixel voor pixel te bestuderen. 
Een bepaald karakter wordt verge- 
leken met alle karakters uit de da- 
tabase. Wanneer twee pixels gelijk 
zijn, gaat de ‘gelijkheidswaarde’ 
voor dat karakter omhoog. Ver- 
schillen de pixels, dan gaat die waar- 
de naar beneden. Zo gaat het pro- 
gramma verder totdat het in te le- 
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zen karakter vergeleken is met alle karak- 
ters uit de database. Ten slotte wordt het ka- 
rakter met de hoogste ‘gelijkheidswaarde’ 
afgedrukt. Het spreekt vanzelf dat dit een 
minder aantrekkelijke methode is. 


Liever Nederlands 
dan Japans 


Als we veronderstellen dat een OCR-pro- 
gramma zijn werk goed doet, dan zijn fouten 
het resultaat van een slecht leesbare tekst. Om 
een tekst op een betrouwbare manier te kun- 
nen digitaliseren, moet de bron van voldoen- 
de kwaliteit zijn. Zo is gedrukte tekst makke- 
lijker om in te lezen dan een handgeschreven 
briefje. Ook het gebruik van verschillende of 
erg grafische lettertypen bemoeilijkt het pro- 
ces. Verder zijn sommige talen heel wat moei- 
lijker te herkennen dan andere. Romaanse ta- 
len mogen dan wel beperkt zijn tot 26 letters, 
voor Oosterse talen ligt dat iets complexer. Zo 
bevat de Japanse karakterset ongeveer 3.300 
karakters. Daarom wordt bij een Japanse tekst 
gebruik gemaakt van twee opeenvolgende in- 
delingstechnieken. De eerste herleidt de set 
van mogelijke karakters tot een honderdtal. 
Daarbij wordt gebruik gemaakt van relatief 
eenvoudige kenmerken. Vervolgens wordt een 
tweede set met complexere kenmerken ge- 
bruikt om het precieze karakter te identifice- 
ren. Desondanks is het logisch dat je met zo- 
veel karakters meer kans hebt op vergissin- 
gen. Het herkenningsproces wordt nog moei- 
lijker wanneer we een handgeschreven pagi- 
na willen laten inlezen. Het is immers on- 
mogelijk om alle menselijke schrijfwijzes voor 
een bepaalde letter in een database te laten op- 
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Een OCR-pakket hoeft geen stukken van mensen te kosten… 


Award-winning OCR: 


Professional 6.0 OC 


R met een ‘n’. Vergissen is immers men- 


nemen, dus de kans dat het programma fout 
‘gokt’ is hoger. 


De afwerking 


Tot slot komt de zogenaamde ‘nazorg’. Daar- 
bij worden alle woorden aan verschillende con- 
troles onderworpen. Dat kan een spellings- 
controle zijn, maar ook een grammaticacon- 
trole. Eerst wordt gekeken of alle woorden wel 
degelijk in het woordenboek staan. Is dat het 
geval, dan gaat de grammaticacontrole aan het 
werk. Bij zinnen worden taalmodellen ge- 
bruikt. Daar staat bijvoorbeeld in dat als woord 
A in een zin voorkomt, er een heel hoge kans 
is dat woord B ook in die zin staat. OCR kan 
ook gebruik maken van contextueel onder- 
zoek. Als de OCR-machine van het postkan- 
toor erin slaagt om de postcode te lezen, dan 
kan het de corresponderende stadsnaam in 
een tabel opzoeken en hoeft het die naam niet 
van de envelop of postpakket te lezen. Is alle 
tekst ingelezen en gecontroleerd, dan worden 
titels, rubbriekkopjes, tussenkopjes en der- 
gelijke toegewezen. Dit gebeurt opnieuw op 
basis van modellen en contextuele onderzoe- 
ken. Tot slot wordt de leesvolgorde van de ver- 
schillende blokken tekst bepaald. 


Scanresolutie 


Als je het tot nu toe een beetje hebt kunnen 
volgen, dan begrijp je onmiddellijk de be- 
langrijkheid van de scanresolutie. Hoe hoger 
de resolutie, hoe meer detail. Hoe meer de- 
tail, hoe beter de OCR. Bij het verwerken wordt 
een pagina in een heleboel kleine hokjes ver- 
deeld. Als je pagina op een lage resolutie ges- 
cand is, dan zal er niet veel detail te 
zien zijn, omdat de afzonderlijke hok- 
jes te groot zijn. Het programma zal 
de bepalende kenmerken van een ka- 
rakter niet kunnen terugvinden. Dat 
leidt dan weer tot een hoger aantal fou- 
ten. Een resolutie van 300 dpi is dan 
ook aan te raden. Er zijn nog andere 
factoren die meespelen. Zo is het be- 
ter om je document recht onder de 
scanner te leggen, en niet onder een 
hoek. De software zal, indien nodig, 
het document weliswaar roteren, maar 
dat kan tot meer onnauwkeurigheid 
leiden. We hopen dat je aan de hand 
van deze tekst wat meer inzicht in het 
OCR-proces hebt gekregen, en dat je 
wat begrip opbrengt voor je OCR-pro- 
gramma als het eens een ‘m’ verwart 


selijk, en computerprogramma’s wor- 
den vandaag nog steeds door mensen 
gemaakt… 

— Benjamin Carlier — 


